由于大规模的图像对比训练,预训练的视觉语言模型(VLM)(例如剪辑)表现出优越的开放式摄入识别能力。大多数存在的开放式摄制对象检测器都试图利用预训练的VLM来获得生成表示。f-Vit使用预先训练的视觉编码器作为骨干网,并在训练过程中冻结它。但是,冷冻的骨干线不能从标记的数据中受益,以增强表示形式。因此,我们提出了一种新型的两种分支骨干网络设计,称为VIT-FEATURE-调制多规模卷积网络(VMCNET)。vmcnet由可训练的卷积分支,冷冻预训练的VIT分支和特征调制模块组成。可训练的CNN分支可以通过标记的数据进行优化,而冷冻的预训练的VIT分支可以保持大规模预训练的表示能力。然后,提出的特征调制模块可以通过VIT分支的代表来调节多尺度CNN特征。使用拟议的混合结构,检测器更有可能发现新型类别。在两个流行的基准测试中进行了评估,我们的方法提高了新型类别的检测性能,并构成了基线。在OV-Coco上,该提出的方法以VIT-B/16和48.5 AP Novel 50具有VIT-L/14的AP Nove 50实现44.3 AP Novel 50。在OV-LVIS上,具有VIT-B/16和VIT-L/14的VMCNET达到27.8和38.4地图r。
主要关键词